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摘 要 : [目的 /意义 ] 针 对 当前 各 图 书馆 、 文 化 馆 等 公共 文化 服务 机 构 的 多 源 异 构 数 据 ,设计 出 一 套 行 之 有 效 的 集成 架构 。 
[方法 /过 程 ] 在 充分 分 析 公 共 文 化 大 数据 资源 的 基础 上 ,对 公共 文化 服务 大 数据 的 类 型 与 分 布 进行 分 析 , 结合 公 
共 文 化 服务 大 数据 的 应 用 场景 ,设计 公共 文化 大 数据 集成 的 架构 。[ 结果 /结论 ] 提 出 一 个 由 数据 来 源 层 、 系 统 集 
成 层 、 数 据 融 合 层 、 存 储 层 、 应 用 层 五 个 层次 构成 的 公共 文化 服务 大 数据 集成 架构 ,并 对 其 中 的 采集 、 存 储 等 关键 


技术 进行 研究 。 
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= 和 区 一 级 的 总 分 馆 机 制 , 在 资源 与 服务 上 进行 了 集成 
十 


与 统一 ;上 海 等 城市 实现 一 卡通 服务 ,市 民 一 卡通 除了 


< 我 国 图 书馆 主要 有 三 大 阵地 ,分 别 是 公共 图 书馆 、 
高 殴 图 书馆 以 及 专业 图 书馆 。 在 专业 图 书馆 领域 ,于 
2000 年 成 立 了 国家 科技 图 书 文献 中 心 (national science 
at jechnology library，NSTL ) ,把 科技 领域 的 文献 情报 
顶 阅 的 资源 整合 起 来 ,按照 “统一 采购 ,规范 加 工 .联合 
上 向 资源 共享 "的 机 制 ,采集 ,收藏 和 开发 理工 、 农 、 
萤 邱 学 科 领域 的 科技 文献 资源 ,面向 全 国 提供 公益 的 、 
普 感 的 科技 文献 信息 服务 ""。 在 高 校 图 书馆 领域 ,于 
1998 年 开始 启动 构建 了 中 国 高 等 教育 文献 保障 系统 
(Cna Academic Library & Information System ,CALIS ) ， 
建成 以 CALIS 联机 编目 体系 .CALIS 文献 发 现 与 获取 
体系 .CALIS 协同 服务 体系 和 CALIS 应 用 软件 云 服务 
平台 等 为 主干 ,各 省 级 共 建 共享 数字 图 书馆 平台 、 各 高 
校 数 字 图 书馆 系统 为 分 支 和 叶 节 点 的 分 布 式 “ 中 国 高 


交通 、 医 疗 挂号 等 服务 以 外 ,可 以 实现 图 书馆 文化馆 
等 各 类 公共 文化 机 构 的 统一 认证 与 服务 。 国 家 公共 文 
化 云 平 台 已 经 有 上 百 家 公 共 文 化 服务 机 构 提供 相应 的 
资源 活动 与 服务 。 浙 江 嘉 兴 " 文 化 有 约 " 已 上 线 多 
年 ,上 海 文化 云 的 发 展 也 非常 迅速 ， 文 化 嘉定 云 " 高 
度 聚 合 区 级 图 书馆 文化馆、 博物馆、 美术 馆 ,以 及 街 镇 
文体 服务 中 心 的 文化 资源 和 服务 信息 ,通过 网 站 .手机 
APP 微 信 、 微 博 服 务 集群 ,为 公众 提供 综合 性 、 一 站 
式 .均等 化 的 远程 数字 阅读 .虚拟 场馆 体验 .特色 资源 
获取 .文化 活动 预告 .公共 设施 预订 ` 线 上 交流 展示 等 
文化 服务 ” 。 

随 着 公共 文化 服务 在 线 平 台 的 不 断 出 现 ,公共 文 
化 服务 数字 资源 数量 也 在 不 断 地 增长 ,在 线 平 台 上 产 
生 的 数据 也 呈现 出 多 样 化 趋势 ,对 这 些 数 据 集成 以 后 


等 教育 数字 图 书馆 ” ,成 员 单位 已 有 近 两 千家 。 与 高 
校 馆 与 专业 馆 相 比 , 公 共 图 书馆 面向 普通 大 众 ,各 地 发 
展 更 加 突出 地 方 特色 ,这 些 原因 使 得 公共 图 书馆 领域 
一 直 没 有 一 个 全 国 性 的 统一 平台 。 

近年 来 , 随 着 国家 对 公共 文化 领域 的 重视 ,公共 文 
化 服务 体系 的 建设 已 逐步 开展 起 来 ,区 域 协 同 与 跨 馆 
服务 的 需求 也 日 渐 增 强 。 很 多 城市 已 经 实现 了 市 一 级 


进行 分 析 与 挖 据 , 有 着 广泛 的 应 用 场景 。 从 读者 厦 购 
到 "你 选 书 我 买单 ”, 从 借 书 排行 榜 、` 到 馆 统计 等 到 大 
数据 墙 , 从 自助 借 还 到 机 器 人 盘点 上 架 , 从 网 络 点 播 到 
文化 云 .从 馆 际 互 借 到 文 旅 融 合 ,这 些 都 很 好 地 把 多 源 
异 构 甚至 路 区 域 的 资源 数据 ,用户 数据 打通 到 一 起 并 
集成 关联 起 来 ,为 用 户 提供 更 好 的 精准 服务 ,为 公共 文 
化 服务 机 构 提 供 实时 动态 的 业务 监测 与 管理 ,为 管理 
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部 门 提供 更 全 面 的 现状 揭示 与 决策 文 撑 。 而 要 实现 这 
些 应 用 ,就 需要 把 这 些 跨 地 域 . 跨 机 构 、 跨 平台 的 数据 


术 平 台 构 建 的 关键 技术 ”。 昌 佑 龙 等 提出 由 物 物 互联 
层 \ 对 象 感知 层 、 数 据 分 析 层 、 业 务 应 用 层 和 云端 服务 


集成 到 一 起 ,这 是 公共 文化 服务 大 数据 领域 发 展 的 前 
提 与 关键 。 

基于 大 数据 集成 技术 解决 公共 文化 领域 里 异 构 数 
据 源 数据 之 间 的 物理 和 逻辑 层面 的 差异 问题 ,给 用 户 
提供 透明 的 一 站 式 服 务 平台 是 公共 文化 服务 大 数据 集 
成 研究 所 要 追求 的 目标 。 为 了 实现 数据 集成 任务 的 目 
标 ,首先 需要 掌握 好 集成 对 象 的 数据 特点 ,如 数据 类 
型 数据 结构 ,数据 量 级 .数据 来 源 等 ;需要 梳理 并 发 现 
数据 集成 时 会 面临 的 问题 ,包括 系统 集成 与 数据 融合 
时 的 问题 ;按照 层次 与 流程 设计 公共 文化 服务 大 数据 
的 集成 架构 ,并 对 关键 技术 进行 剖析 。 


] 


2 相关 研究 述评 


层 5 个 层次 和 一 个 大 数据 中 心 构成 的 智慧 工厂 技术 体 
系 架构 ”。 李 少 波 等 认为 大 数据 下 制造 业 的 五 大 关键 
技术 ,包括 数据 集成 技术 .数据 存储 技术 .数据 处 理 技 
术 数据 分 析 技术 以 及 数据 展现 技术 ” 。 王 淞 等 认为 
未 来 的 数据 集成 领域 研究 主要 集中 在 对 算法 加 速 对 
复杂 数据 源 的 集成 以 及 基于 众 包 的 方法 方面 " 。 可 以 
看 得 出 ,自然 科学 领域 集成 的 数据 源 主要 为 传感器 、 遥 
感 遥 测 、 卫 星 等 硬件 设备 传输 的 数据 ,也 称 之 为 “ 硬 数 
据 ”。 数 据 集成 是 大 数据 分 析 与 展现 的 前 提 与 基础 。 
2.1.2 智慧 城市 大 数据 集成 

智慧 城市 除了 与 像 自 然 科学 一 样 有 一 些 来 自传 感 
设备 的 硬 数据 以 外 ,也 有 一 些 管理 和 社会 数据 。 政 务 


大 数据 在 很 多 领域 已 实现 用 户 画 像 与 精准 推荐 、 
实时 监测 与 远程 监控 、 风 险 预 警 与 趋势 研判 等 。 
这 画 应 用 场景 的 实现 , 离 不 开 各 个 领域 不 同 数据 源 的 
数据 集成 。 大 数据 集成 与 传统 数据 集成 的 不 同 点 在 
了 S 从 数据 结构 角度 看 ,集成 的 数据 对 象 不 限于 数据 库 
电 的 结构 化 数据 ,还 包括 半 结 构 化 数据 和 非 结构 化 数 
据 划 日 志 数据 .图像 数据 ,视频 数据 ,语音 数据 等 。 随 
着 视 类 信息 化 系统 的 不 断 涌现 以 及 数据 收集 的 多 样 
化 玫 据 集成 的 问题 在 各 行 各 业 都 已 成 为 制约 大 数据 
控 乌 利用 的 关键 因素 之 一 ,大 数据 集成 是 大 数据 组 织 
建 梁 与 分 析 挖掘 的 前 提 。 
2: 丘 领域 大 数据 集成 应 用 研究 
-在 电子 商务 领域 ,数据 集成 不 仅 有 很 多 研究 成 果 ， 
而 且 通 过 数据 中 台 等 打通 了 所 有 的 数据 ,包括 用 户 注 
册 数 据 , 用 户 访问 数据 ,交易 数据 ,互联 网 金融 数据 , 物 
流 数据 等 等 ,通过 数据 集成 与 融合 实现 了 各 种 应 用 。 
在 地 空 允 感 .农业 生态 .工业 制造 ,智慧 城市 .图 书 情报 
等 方面 ,大 数据 的 集成 也 有 一 些 研究 与 应 用 。 
2.1.1 自然 科学 领域 大 数据 集成 

大 数据 集成 起 源 于 信号 ,遥感 监测 .工业 自动 化 等 
领域 。 多 源 地 理 大 数据 为 地 理 现象 的 分 布 格局 .相互 
作用 及 动态 演化 提供 了 前 所 未 有 的 社会 感知 手段 中 。 
王 卷 乐 等 提出 了 依托 网 络 大 数据 、 遥 感 大 数据 与 社会 
经 济 大 数据 等 地 球 大 数据 的 集成 与 标准 化 框架 ,分 析 
了 网 络 数据 获取 与 分 析 、 遥 感 数据 地 表 信息 智能 提取 
与 处 理 以 及 社会 经 济 数据 空间 化 的 关键 技术 ”。 赵 芬 
等 从 数据 获取 ,数据 存储 与 管理 ,数据 计算 模式 与 系统 
和 数据 分 析 共 4 个 模块 详细 阐述 了 生态 环境 大 数据 技 


言 息 领 域 由 于 数据 集 规模 日 益 扩 大 ,各 部 门 的 信息 化 
过 程 不 同 ,导致 了 各 部 门 各 层级 之 间 信 息 不 能 充分 地 
集成 与 共享 ,形成 了 信息 孤岛 问题 。 在 面 对 这 一 现实 
问题 ,很 多 学 者 展开 了 探讨 与 研究 。 叶 讲 等 认为 大 数 
据 与 知识 的 “互联 网 + 政务 服务 ” 云 平台 构建 与 服务 ， 
有 助 于 消除 信息 孤岛 、 知 识 孤岛 和 业务 孤岛 '"。 杨 兴 
凯 等 综述 了 在 政府 信息 领域 里 所 使 用 到 的 集成 方法 ， 
认为 针对 电子 政务 信息 资源 整合 标准 化 的 研究 比较 
少 ,导致 电子 政务 标准 化 的 数据 模型 和 业务 模型 构建 
方面 发 展 较 缓慢 。 潜 之 旭 等 提出 一 种 分 布 式 数据 
集成 及 可 视 化 应 用 方法 ,基于 大 数据 处 理 模式 ,将 分 散 
在 不 同 网 络 路 由 的 数据 库 数据 接 入 抽取 和 集成 ,进行 
挖掘 分 析 , 增 强 数 据 动 态 描述 和 Web 可 视 化 能 力 , 提 
供 面 向 服务 的 智慧 化 社会 治理 决策 分 析 与 应 用 1。 
刘岩 等 通过 建设 大 数据 中 心 实现 异 构 数 据 源 数据 的 集 
成 ,设计 了 以 Hadoop 为 核心 的 异 构 数 据 源 数据 集成 系 
统 架 构 ) 。 
2.1.3 情报 大 数据 集成 

情报 机 构 与 公共 文化 机 构 在 数据 资源 .业务 流程 
与 服务 功能 等 方面 都 具有 很 强 的 相似 性 ,因此 ,情报 领 
域 的 大 数据 集成 对 公共 文化 大 数据 集成 也 具有 较 强 的 
参考 借鉴 意义 。 唐 明 伟 等 将 数据 集成 的 主要 理论 分 为 
异 构 数 据 论 和 系统 集成 论 ,提出 一 个 面向 大 数据 的 情 
报 分 析 框 架 ,大 数据 集群 层 是 整个 框架 能 够 应 对 大 数 
据 应 用 的 核心 ,主要 由 情报 资源 .计算 集群 和 应 用 程序 
池 三 部 分 组 成 ”。 巴 志 超 等 通过 对 物理 世界 与 人 类 
社会 中 的 元 素 或 数据 进行 泛 在 协同 感知 与 获取 ,将 其 
映射 到 信息 空间 中 实现 数据 的 序 化 组 织 、 信 息 融 合 与 
整合 分 析 , 进 而 反 向 指导 人 类 社会 与 物理 世界 的 决策 
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行为 "5 。 卢 小 宾 等 提出 了 一 种 通用 的 面向 风险 管理 
的 银行 大 数据 分 析 系统 架构 , 旨 在 将 不 同类 型 的 数据 
进行 整合 的 基础 上 ,构建 统一 ,规范 和 易 用 的 大 数据 分 
析 系 统 " 。 陈 伟 等 综述 了 海量 异 构 数 据 集成 数据 管 
理 与 分 析 方法 和 工具 的 开发 进展 ,提出 了 建设 数据 驱 
动 型 科技 情报 研究 模式 的 整体 架构 '” 。 
2.2 ”公共 文化 大 数据 研究 

在 智慧 城市 .图书 情报 等 人 文 社 科 领 域 ,除了 有 些 
“ 硬 数据 "以 外 ,还 有 加 工 数据 ,文档 数据 ,社交 关系 数 
据 等 一 些 带 有 人 工 痕 迹 或 社 科 属 性 的 “ 软 数据 " ,这些 
数据 集成 的 流程 .技术 与 方法 具有 很 强 的 共通 性 。 把 
多 源 的 . 异 构 的 数据 集成 到 统一 的 框架 与 平台 下 ,可 以 
更 好 地 推动 与 促进 公共 文化 大 数据 的 发 展 与 应 用 。 图 
书馆 为 代表 的 公共 文化 服务 机 构 有 着 丰富 的 数据 资 
源 数 据 资源 密集 ,而 且 很 多 数据 是 文本 、 视 频 等 非 结 
梅 化 数据 ,具有 大 数据 的 典型 特点 ,近年 来 围绕 公共 文 
仿 江 数据 的 讨论 也 日 浙 增 多 。 
C1 公共 文化 大 数据 理论 探讨 
< 十 关 于 大 数据 与 公共 文化 领域 结合 的 探讨 最 早 始 于 
图 区 馆 研 究 。 在 2012 年 , 韩 滩 峰 就 意识 到 了 大 数据 对 
图 帮 馆 功能 的 影响 ,指出 了 大 数据 将 对 图 书馆 的 资源 
邦 陆 能 力 用户 需求 挖 据 能 力 等 提出 更 高 要 求 , 需 要 图 
书 齐 改变 技术 开发 与 运用 .数据 集成 与 处 理 . 人 才 培养 
与 管理 等 方面 的 模式 "”。 稿 婷 等 把 公共 文化 大 数据 
兮 后 业务 数据 、 网 络 数据 ,管理 数据 ,探讨 了 公共 文化 
大 线 据 的 采集 存储、 分 析 方式 "”") 。 苏 新 宁 从 资源 奸 
设 < 技 术 应 用 与 服务 三 个 方面 展望 了 数字 图 书馆 的 未 
来 疾 展 所 。 刘 炜 等 针对 公共 文化 服务 大 数据 发 展 的 
顶层 设计 ,研究 了 这 一 过 程 中 的 政策 与 宏观 管理 .产业 
链 与 行业 生态 ,技术 标准 规范 等 问题 ”。 这 些 研究 论 
证 了 大 数据 与 公共 文化 服务 结合 的 必要 性 ,从 不 同 视 
角 对 公共 文化 大 数据 进行 了 探索 与 剖析 ,建立 了 公共 
文化 大 数据 应 用 的 初步 理论 ,为 公共 文化 大 数据 应 用 
方式 的 挖掘 提供 了 理论 支撑 ,对 于 大 数据 在 公共 文化 
服务 领域 的 发 展 具有 重要 的 指引 与 推动 作用 。 
2.2.2 公共 文化 大 数据 体系 研究 

有 了 理论 的 指引 ,可 以 设计 公共 文化 大 数据 体系 。 
J. Li 等 从 人 力 资源 .文献 资源 ,技术 支持 .服务 创新 和 
基础 设施 构建 五 个 方面 论述 了 大 数据 在 图 书馆 的 应 用 
框架 。 曹 树 金 等 提出 面向 精准 服务 的 图 书馆 大 数 
据 系统 构建 设想 ,系统 结构 包括 多 来 源 的 数据 采集 层 、 
数据 预 处 理 与 存储 层 ,精准 化 的 数据 分 析 建 模 层 和 支 
持 精准 化 的 管理 与 服务 的 应 用 层 等 自 下 而 上 的 四 个 层 


级 ,系统 的 核心 在 于 全 面 采集 图 书馆 的 大 数据 ”。 郭 
路 生 等 基于 EA( 企 业 架 构 ) 根 据 战略 目标 对 应 用 体系 
的 服务 架构 IT 架构 和 治理 架构 对 公共 文化 大 数据 应 
用 体系 进行 顶层 设计 ” 。 张 春景 将 公共 文化 服务 大 
数据 应 用 模式 分 为 三 种 驱动 类 型 ,包括 数据 驱动 型 云 
平台 驱动 型 和 整体 驱动 型 。 

2.2.3 公共 文化 大 数据 集成 研究 

除了 这 些 体系 的 研究 ,有 些 学 者 专门 提 到 数据 集 
成 或 者 技术 平台 的 实现 。 李 广 建 等 认为 公共 文化 服务 
大 数据 研究 应 着 重 关注 公共 文化 服务 大 数据 的 概念 与 
边界 研究 方法 研究 .数据 集成 整合 研究 .用户 画像 建 
模 研 究 ,精准 服务 研究 以 及 发 展 战略 研究 ” 。 刘 双 等 
提出 集成 图 书馆 信息 系统 应 由 图 书馆 业务 信息 系统 
( library operating information system ,LOIS) 、 图 书馆 管理 
信息 系统 (library management information system ,LMIS) 
和 图 书馆 服务 信息 系统 (library services information sys- 
tem,LSIS) 三 者 互联 和 互通 而 成 ”。 曹 健 等 介绍 了 基 
于 Hadoop 的 高 校 图 书馆 数字 资源 大 数据 分 析 系 统 ， 
包括 基础 数据 集成 .读者 标签 化 资源 分 析 、 业 务 分 
析 以 及 系统 综合 管理 等 五 个 功能 模块 ” 。 图 书馆 的 
数据 具有 数据 密集 、 非 结构 化 数据 分 布 广泛 以 及 对 
服务 的 精准 化 诉求 ,使 得 图 书馆 大 数据 集成 的 问题 
日 益 迫 切 。 

2.3 研究 述评 

从 领域 横向 对 比 来 看 ,在 遥感 监测 工业 制造 、 农 
业 生 态 .智慧 城市 等 领域 ,大 数据 集成 的 研究 已 经 比较 
充分 而 深入 ,这 些 研究 成 果 可 以 为 公共 文化 大 数据 集 
成 提供 参考 与 借鉴 。 与 这 些 领 域 相 比 ,公共 文化 大 数 
据 集成 研究 还 刚刚 起 步 。 

从 公共 文化 领域 自身 来 看 ,公共 文化 领域 对 大 数 
据 的 认识 已 比较 充分 ,无论 从 业务 发 展 .国家 任务 还 是 
从 用 户 需求 来 看 ,公共 文化 大 数据 的 发 展 迎 来 了 较 好 
的 发 展 机 会 与 挑战 ,围绕 大 数据 的 研究 也 随 之 多 起 来 ， 
整体 上 来 看 ,理论 研究 多 一 些 ,实践 落 地 的 研究 还 不 够 
充分 ,另外 ,有 多 项 研究 提 到 了 数据 集成 问题 ,但 如 何 
实现 多 源 异 构 的 数据 集成 ,还 缺乏 专门 的 论述 与 探讨 。 
因此 ,本 文 在 充分 分 析 公 共 文 化 大 数据 资源 的 基础 上 ， 
结合 公共 文化 服务 大 数据 的 应 用 场景 ,设计 公共 文化 
大 数据 集成 的 架构 ,并 对 其 中 所 涉及 到 的 关键 技术 进 
行 剖析 。 


3 ”公共 文化 服务 大 数据 资源 分 析 
不 同 领域 具有 不 同 的 数据 资源 ,数据 资源 的 分 布 
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形态 ,数据 结构 .数据 类 型 等 决定 着 数据 集成 方式 的 选 
择 。 
3.1 公共 文化 服务 大 数据 集成 对 象 
3.1.1 数据 来 源 

公共 文化 服务 大 数据 集成 对 象 的 数据 是 图 书馆 、 
文化 馆 ,博物馆 .美术 馆 .纪念 馆 群众 艺术 馆 等 服务 机 
构 所 产生 的 。 公 共 文化 大 数据 的 核心 包括 资源 数据 、 
用 户 数据 . 馆 员 数据 ,管理 数据 服务 数据 ,业务 数据 及 
其 关系 。 从 公共 文化 大 数据 应 用 文 旅 部 重点 实验 
室 的 角度 看 ,数据 主要 有 开放 数据 ,系统 数据 ,基地 加 
工 数据 和 公共 文化 云 数据 。 开 放 数 据 是 指 从 图 书馆 、 
文化 馆 等 服务 机 构 以 网 络 疏 虫 技术 获取 的 服务 数据 以 
及 年 报 中 提取 的 业务 数据 。 系 统 数据 是 指 各 文化 服务 
栅 攀 的 系统 数据 ,主要 存储 在 关系 型 数据 库 系 统 里 ,如 
SQP Server 、Oracle .MySQL .Sybase 等 。 基 地 加 工 数据 
为 图 书馆 文化馆, 文化 站 和 文化 云 的 统计 数据 ,这 些 
手提 以 填报 的 方式 或 者 以 文件 的 形式 传输 。 公 共 文化 
云 弄 据 包 括 基础 数据 、 资 源 目录 数据 、 资 源 内 容 数据 、 
用 高 数据 ,活动 数据 等 。 
3Q> 数据 分 类 
QJ 由 于 来 自 各 个 数据 源 的 数据 结构 以 及 数据 所 处 理 
并 式 并 不 相同 ,需要 进一步 将 这 些 数据 明确 地 区 分 


是 否 属于 结构 化 或 半 结 构 化 或 非 结 构 化 数据 ,以 便 明 
确 哪些 数据 以 何 种 数据 采集 技术 和 何 种 数据 存储 技术 
来 处 理 。 结 构 化 数据 具有 明确 且 统 一 的 数据 结构 , 主 
要 来 自 关 系 型 数据 库 ; 半 结 构 化 数据 一 般 带 有 一 定 的 
标记 , 且 形 成 一 定 结构 ,例如 以 XML 或 JSON 格式 存储 
的 数据 ; 非 结构 化 数据 没有 明确 的 结构 ,主要 以 文档 、 
片 音 视 频 等 文件 形式 存储 。 

系统 数据 是 各 服务 机 构 提供 的 来 自 门户 网 站 , 管 
理 系 统 、 业 务 系统 的 关系 型 数据 库 的 数据 ,其 数据 为 结 
构 化 数据 。 文 化 云 数 据 里 的 数据 既 有 结构 化 数据 又 有 
非 结 构 化 数据 ,结构 化 数据 包括 文化 云 的 基础 数据 、 资 
源 目 录 数 据 、 用 户 基 本 数据 和 活动 基本 数据 。 半 结构 
化 数据 主要 指 XML 或 JSON 格式 的 日 志 数据 ,网 络 上 
带 有 标记 的 数据 ,如 MARC 数据 .用 元 数据 标记 的 文献 
题 录 数据 ,以 及 基地 填报 的 数据 ,这 些 数据 经 过 识别 与 
转化 后 大 部 分 内 容 可 以 转 成 结构 化 的 数据 , 存 人 数据 
库 , 也 可 以 以 文件 形式 存储 。 非 结构 化 的 数据 主要 包括 
文化 云 上 的 活动 通知 文本 .用户 评论 文本 和 资源 内 容 等 
视频 数据 等 ,帖子 微 博 、 微 信 等 自 媒体 数据 ,还 有 各 个 
机 构 网 站 上 的 PDF 或 WORD 格式 的 论文 年报、 研究 报 
告 等 文档 数据 ,以 及 其 他 网 络 自 由 文本 数据 。 对 公共 
文化 服务 集成 对 象 数据 的 分 类 结构 如 表 1 所 示 : 


表 1 公共 文化 服务 大 数据 分 类 


结构 化 数据 半 结 构 化 数据 非 结 构 化 数据 
| 基地 系统 数据 文化 云 数据 ( 非 评论 1 视频 ) 日 志 数 据 “网络 数据 ”填报 数据 ”文档 数据 自 媒体 数据 ”网 站 数据 文化 云 数据 
1 管理 “业务 ” 基础 ”资源 目 用 户 基 活动 基 XML 网络 上 带 有 基地 填报 年 报 帖子 网 络 评论 文本 
胶 站 系统 “系统 数据 录 数 据 本 数据 本 数据 JSON 标记 的 数据 数据 论文 微 博 文本 活动 文本 


3. 多 数据 集成 面临 的 挑战 

为 了 有 效 地 解决 数据 集成 问题 ,首先 需要 了 解数 
据 集成 问题 产生 的 原因 。 李 亢 等 认为 数据 集成 的 难点 
主要 可 以 归结 为 异 构 性 问题 .分布 性 问题 和 自治 性 问 
题 。 异 构 性 问题 主要 是 指 各 数据 源 的 管理 环境 .数据 
模型 ,数据 表 达 方式 和 数据 语义 的 问题 Po 。 数 据 集成 
面临 的 问题 主要 包括 系统 集成 问题 与 数据 集成 问题 。 
3.2.1 系统 集成 问题 

建立 公共 文化 服务 大 数据 集成 平台 ,需要 实现 不 
同 数据 源 系统 之 间 的 无 颖 交流。 即使 不 同 数据 源 的 系 
统 都 在 同一 个 硬件 平台 上 运行 ,并 且 全 部 使 用 支持 
ODBCZJDBC 和 SQL 标准 的 关系 数据 库 系统 ,也 存在 难 
以 解决 的 问题 。 例 如 ,虽然 SQL 为 一 种 用 于 关系 数据 
库 的 标准 查询 语言 ,但 不 同 公共 文化 服务 平台 的 实现 
方式 有 所 差异 ,因此 ,在 集成 过 程 中 需要 对 此 差异 进行 
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协调 。 在 数据 集成 中 ,集成 的 数据 是 来 自己 经 存在 于 
数据 存储 系统 的 数据 ,数据 结构 通常 也 比较 复杂 。 此 
外 ,每 个 数据 源 提供 的 查询 处 理 能 力也 大 不 相同 。 例 
如 ,一 个 数据 源 可 能 是 支持 完整 的 SQL 的 关系 型 数据 
库 , 因 此 ,可 容纳 非常 复杂 的 查询 ,但 是 数据 源 不 只 限 
于 关系 型 数据 库 ,也 包含 WEB 和 TEXT CSV JSON 等 
文档 数据 源 ,对 这 些 数据 难以 进行 复杂 的 查询 1 。 
3.2.2 数据 集成 语义 问题 

为 相同 目的 建立 同样 的 数据 库 ,由 于 支持 厂商 不 
同 ,也 可 能 设计 出 非常 不 同 的 数据 模式 ,因此 在 数据 语 
义 .表达 形式 数据 源 使 用 环境 等 多 个 方面 呈现 出 异 构 
性 。 多 源 数据 异 构 性 是 数据 集成 面临 的 重要 挑战 ,并 
且 有 效 解决 其 异 构 性 是 保障 数据 集成 质量 的 关键 所 
在 。 这 些 问 题 包 括 语义 歧义 性 .实例 表示 歧义 性 .数据 
不 一 致 性 以 及 数据 元 余 ,数据 缺失 等 问题 。 
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(1) 语 义 歧义 性 。 语 义 歧义 性 包括 两 个 方面 ,有 
些 数据 用 不 同 的 名 字 来 表示 相同 内 容 ;也 有 相同 的 名 
字 表 示 不 同 的 含义 。 在 不 同 公共 文化 服务 机 构 基 地 加 
工 数 据 库 里 对 同一 数据 的 描述 可 能 不 同 ,如 图 书馆 和 
文化 站 的 数据 库 里 ,对 于 到 馆 人 次 的 字段 名 称 描述 不 
一 致 ,图 书馆 基地 加 工 数据 将 到 馆 人 次 表示 为 到 馆 人 
次 ,文化 站 将 此 描述 为 到 站 人 次 。 为 方便 之 后 的 统计 
应 用 需要 采取 合适 的 字段 名 来 统一 。 不 同 数据 源 可 能 
用 相同 的 字段 名 来 表示 不 同 含义 的 字段 。 例 如 , 当 将 
网 上 咨询 台 系统 与 “一 人 一 艺 云 平台 ”系统 集成 时 ,由 
于 两 个 系统 均 有 标题 字段 ,但 是 它们 的 标题 字段 意义 
并 不 一 致 ,网 上 咨询 台 系统 标题 字段 指 用 户 所 咨询 的 
标题 ,而 “一 人 一 艺 云 平台 "标题 指 此 平台 发 布 的 相关 
活动 名 称 。 此 类 问题 可 通过 元 数据 映射 来 解决 。 

全 (2) 实例 表示 歧义 性 。 从 各 基地 系统 数据 表 来 


硕 s 闻 * 波 市 文化 馆 官网 系统 将 用 户 的 点 击 次 数 表 示 成 


皮 潭 率 ,但 在 数字 资源 访问 系统 里 将 此 表示 成 点 击 次 


一 个 是 表示 成 百分比 , 男 一 个 是 表示 为 次 数 ,虽然 
尖 


属于 实例 表示 歧义 
性 。 "这些 数据 通常 是 由 系统 日 志 而 来 ,但 是 像 服务 机 
构 赔 站 上 描述 的 活动 数据 时 间 与 其 网 站 数据 库 里 记录 
摆动 时 间 描述 格式 可 能 不 同 。 不 同 来 源 的 多 种 格式 
的 赔 类 数据 ,统一 为 某 种 格式 即 可 。 

"三 (3 ) 数 据 不 一 致 性 。 造 成 数据 不 一 致 的 原因 有 很 
多 ( 包 括 同步 问题 ,数据 多 分 类 、 统 计 口径 .计算 错误 、 
答 入 错误 .过 时 的 信息 等 。 不 同 公共 文化 机 构 针 对 同 
一 个 实例 的 活动 时 间 描 述 不 一 致 活动 场所 描述 不 一 
致 ,其 中 一 个 实例 很 可 能 是 不 准确 的 数据 等 。 比 如 ,年 
报 里 出 现 的 大 事 记 描述 可 能 与 对 应 的 网 页 里 内 容 描述 
不 一 致 。 此 外 ,可 能 存在 不 同 机 构 针对 同一 个 讲座 类 
别 分 类 不 同 的 问题 ,例如 某 个 机 构 对 某 讲 座 归 和 文化 
类 、 然 而 另 一 个 机 构 将 此 归 入 生活 类 。 数 据 不 一 致 性 
与 实例 表示 歧义 性 的 不 同 点 是 ,数据 不 一 致 是 因数 据 
值 的 不 同 而 产生 ,一 般 由 于 同步 问题 而 发 生 , 实 例 表 示 
歧义 性 指 的 是 同样 的 实例 在 表达 形式 上 的 不 同 。 分 布 
式 大 数据 集成 过 程 中 数据 属性 特征 在 语义 上 的 冲突 特 
征 包括 :字符 类 型 属性 值 的 数据 ,数值 类 型 属性 值 的 数 
据 . 布 尔 类 型 属性 值 的 数据 ,还 有 区 间 值 类 型 属性 值 的 
数据 四 种 ” 。 针 对 现 有 关系 数据 库 中 分 布 式 大 数据 
集成 冲突 消解 的 问题 可 以 划分 成 语义 冲突 、 模 式 冲突 


以 及 实例 冲突 ,其 中 语义 冲突 可 以 通过 句法 融合 .逻辑 
树 融 合 和 频率 融合 法 实现 冲突 消解 。 

(4) 数 据 宛 余 问 题 。 公 共 文 化 服务 大 数据 可 分 为 
数字 馆藏 资源 数据 和 非 馆藏 资源 数据 ,其 中 非 馆藏 资 
源 数据 分 为 讲座 展览 和 活动 等 的 服务 数据 和 参展 、 借 
阅 .评论 和 投票 等 用 户 数据 。 由 于 公共 文化 服务 机 构 
非常 多 且 对 数据 的 理解 程度 与 技术 能 力 参差 不 齐 , 数 
据 集成 的 过 程 中 容易 导致 数据 宛 余 .重复 错误。 数据 
宛 余 指 的 是 在 同一 个 数据 集 上 存在 同样 的 数据 。 数 据 
宛 余 问 题 包括 三 类 :完全 数据 宛 余 .包含 关系 的 数据 宛 
余 和 部 分 数据 宛 余 。 完 全 数据 宛 余 指 的 是 要 集成 的 异 
构 数据 源 数据 字段 完全 相同 。 包 含 关系 的 数据 宛 余 问 
题 指 不 同 数据 集 上 具有 包含 关系 的 数据 。 部 分 数据 宛 
余 指 部 分 字段 相同 部 分 字段 相 异 的 情况 。 数 据 宛 余 问 
题 一 般 通过 取 大 售 小 的 方法 来 解决 。 

(5) 数 据 缺 失 问题 。 数 据 缺 失 可 能 不 是 因为 多 
源 ,而 是 人 为 错误 .数据 丢失 ,难以 采集 等 造成 的 ,数据 
可 能 不 够 完整 或 者 同样 的 实例 由 于 来 自 不 同 数 据 源 而 
存在 相对 多 余 或 缺少 的 属性 字段 。 此 情况 下 ,在 数据 
清理 阶段 可 由 以 下 的 几 种 处 理 方法 来 解决 :人 工 补 填 、 
全 局 常量 填充 .属性 中 心 度量 填充 .最 可 能 的 值 填充 
(回归 、 贝 叶 斯 形式 化 方法 或 决策 树 归 纳 、 忽 略 元 
组 )™。 


4 ”公共 文化 服务 大 数据 集成 设计 


数据 集成 的 主流 模式 ,包括 联邦 数据 库 .数据 仓库 
(数据 复制 架构 ) 、 中 间 件 和 基于 本 体 的 集成 等 4 种 模 
式 。 针 对 多 源 异 构 的 数据 特点 ,结合 公共 文化 服务 大 
数据 领域 特点 ,设计 一 个 公共 文化 服务 大 数据 集成 架 
构 , 主 要 包括 大 数据 集成 的 整体 流程 以 及 相关 关键 技 
术 等 。 
4.1 公共 文化 服务 大 数据 集成 架构 

对 公共 文化 机 构 的 各 类 数据 进行 全 面 的 分 析 , 调 
研 相关 的 集成 方法 之 后 ,形成 公共 文化 服务 大 数据 集 
成 研究 的 解决 方案 ,设计 公共 文化 服务 大 数据 集成 架 
构 。 该 架构 分 为 5 个 层次 :数据 来 源 层 、 系 统 集 成 层 、 
数据 融合 层 、 存 储 层 , 应 用 层 , 从 流程 上 包括 数据 源 获 
取 ,数据 传输 与 采集 .问题 域 分 析 数据 处 理 、 数 据 存储 
以 及 数据 应 用 等 过 程 ,具体 内 容 见 图 1。 

数据 层 主要 包括 4 类 数据 来 源 , 依 次 为 开放 数据 、 
系统 数据 .基地 的 加 工 数据 .公共 文化 云 数据。 按照 数 
据 的 类 型 ,分 为 实时 数据 互联 网 数据 ,业务 数据 .日志 
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分 箱 技术 、 回 归 、 
聚 类 、 人 工 与 计算 
机 结合 


系统 集成 层 主要 负责 数据 的 传输 工作 。 在 数据 伟 
给 模块 中 借助 不 同 的 导入 工具 ,实现 不 同 元 数据 和 不 
同 结构 数据 的 导入 。 其 中 ,对 实时 性 要 求 高 的 数据 以 
分 激 式 消息 队列 的 形式 由 Kafka 分 发 ;关系 型 数据 库 
使 用 sqoop 或 ETL 工具 ,直接 将 数据 导入 HDFS 的 数 
据 库 中 ;对 于 安全 等 级 比较 高 的 用 户 数据 和 一 些 离线 
数据 ,使 用 硬件 复制 或 文件 传输 协议 (FTP ) 传输 的 方 
式 导 人 ;对 于 日 志 等 文本 数据 使 用 Flume 工具 导入 ;对 
于 互联 网 数据 使 用 疏 虫 程序 疏 取 并 导入 。 在 数据 集成 
的 过 程 中 会 碰 到 数据 不 一 致 .字段 名 不 一 致 .数据 宛 
余 ,数据 缺失 噪声 数据 等 问题 。 

在 数据 融合 层 , 主 要 由 一 些 数据 融合 的 方法 支撑 
处 理 数据 ,包括 相似 性 系数 计算 、 元 数据 处 理 方法 、 相 
关 分 析 `、 回 归 分 析 \ 贝 叶 斯 判别 、 分 箱 技术 . 聚 类 技术 、 
人 工 与 计算 机 结合 等 多 个 处 理 方法 。 针 对 数据 不 一 致 
问题 ,以 相似 性 系数 计算 方法 检测 不 一 致 的 数据 并 将 
其 统一 成 准确 的 数据 ;针对 字段 名 不 一 致 问题 通过 元 
数据 技术 统一 处 理 为 相同 的 字段 名 ;针对 不 同 数 据 宛 
余 问题 需要 采取 不 同 解决 方法 ,在 字段 上 出 现 的 宛 余 
问题 可 以 由 皮尔 逊 相关 系数 度量 方法 或 者 数据 去 重 技 
术 来 解决 ,在 图 片上 出 现 的 元 余 问 题 可 以 用 数据 压缩 
方法 来 解决 ;针对 数据 缺失 问题 可 以 由 回归 和 贝 叶 其 


图 1 公共 文化 服务 大 数据 集成 架构 


方法 来 解决 ;针对 噪声 数据 可 以 采用 分 箱 技 术 、 回 归 、 
聚 类 、 人 工 与 计算 结合 方法 来 解决 。 

在 存储 层 ,将 已 分 类 以 及 预 处 理 完 的 数据 根据 特 
定 需求 分 别 存储 在 分 布 式 文件 系统 HDFS .分布 式 数据 
库 HBASE ,关系 型 数据 库 MySQL 中 。 使 用 分 布 式 文件 
存储 或 非 结构 化 NOSQL 数据 库 进行 存储 ,以 保障 上 层 
高 效 地 抽取 数据 。 为 提升 数据 分 析 的 实时 性 和 准确 
性 ,在 计算 层 可 采用 适当 的 计算 框架 , 像 Spark 的 基于 
内 存 计算 的 开源 集群 计算 系统 或 者 像 Inpala 的 适用 于 
大 规模 并 行 处 理 式 SQL 大 数据 分 析 引 警 ,可 实现 更 快 
速 的 数据 分 析 。 

在 应 用 层 , 基 于 解决 系统 集成 与 数据 融合 问题 的 
前 提 下 ,可 提供 用 户 统一 认证 服务 .数据 统一 管理 、 个 
性 化 推荐 服务 场馆 与 活动 预约 服务 数字 资源 检索 服 
务 文化 资源 服务 和 资讯 发 布 管理 等 。 
4.2 公共 文化 服务 大 数据 集成 分 析 关 键 技术 

数据 集成 的 前 提 是 采集 不 同 来 源 ,不同 结 构 的 数 
据 , 集 成 的 目的 是 为 了 深入 分 析 与 挖 所 数据, 以 提高 数 
据 的 应 用 价值 。 以 Hadoop 框架 为 底层 的 公共 文化 服 
务 大 数据 集成 技术 框架 ,主要 涉及 到 数据 采集 .数据 存 
储 .数据 分 析 等 关键 技术 。 具 体 如 图 2 所 示 : 
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i 对 不 同 数据 结构 以 适合 的 采集 技术 进行 采集 的 
流 少 。 针 对 来 自 基地 系统 以 及 文化 云 的 结构 化 数据 ， 
如 会 -人 一 艺 云 平台 ”OPAC 读者 检索 系统 、oAuth 用 
户 弓 理 及 服务 平台 ,可 以 用 Sqoop 工具 进行 数据 采集 ， 
Sqg 是 用 于 结构 化 数据 与 Hadoop 之 间 进行 批量 数据 
迁 落 的 工具 。 针 对 来 自 南京 图 书馆 .福建 图 书馆 .重庆 

馆 、 宁 波 文化 馆 、 上 海 图 书馆 等 各 基地 日 志 数 据 ， 
通电 为 序列 化 半 结 构 化 数据 ,可 以 借助 Mume 进行 采 
集 。 针 对 基地 填报 数据 等 的 文档 数据 以 FTP 传输 方式 
进行 采集 , 现 有 FTP 软件 主要 有 FlashFXP、 FileZila、 
Cuteftp 等 。 针 对 机 构 数据 .服务 数据 .动态 数据 、 自 媒 
体 数据 (帖子 . 微 博 、 微 信 ) 等 的 网 站 数据 可 借助 Scrapy 
等 个 虫 工具 进行 采集 。 

在 采集 层 ,针对 在 结构 和 时 序 上 不 同 的 各 个 数据 
源 数据 采用 不 同 的 采集 工具 进行 数据 抽取 ,对 日 志 数 
据 抽取 可 由 Flume 或 kafka 实施 ,也 可 以 结合 起 来 。 对 
MySQL、Oracle 等 关系 型 数据 库 数据 可 由 Sqoop 工具 来 
实施 。 对 安全 性 要 求 较 高 的 文档 数据 可 由 文件 传输 协 
议 (FIP) 采 集 。 对 从 数据 源 已 抽取 的 数据 进行 适当 的 
转换 和 加 工 之 后 ,可 存储 在 HDFS( 分 布 式 文件 系统 ) 
上 的 Hive( 数 据 仓库 ) .HBASE( 分布 式 数据 库 ) 和 其 他 
非 关系 型 数据 库 中 。 


基地 日 志 数 据 


一 人 一 艺 云 平台 
OPAC 读者 检索 系统 
oAuth 用 户 管理 及 服务 平台 


-机 构 数据 

非 结构 化 -服务 数据 

数据 -动态 数据 

网 站 数据 - 自 媒体 数据 
(帖子 、 微 博 、 微 信 ， 

N a -基地 填报 数据 
-文化 云 视频 数据 


2 公共 文化 服务 大 数据 集成 技术 框架 


对 于 实时 性 较 高 的 数据 将 Kafka 与 Flume 两 种 技 
术 结 合 利 用 ,首先 将 业务 数据 实时 存储 到 Kafka 集群 ， 
然后 通过 Flume 的 Source 组 件 实时 处 理 Kafka 的 Topic 
获取 的 数据 ,将 消费 后 的 数据 通过 Flume Sink 组 件 发 
送 到 HDFS 或 HBASE 进行 存储 “ 。 将 两 种 技术 结合 
使 用 的 好 处 是 借助 Kafka 工具 可 实时 采集 日 志 数 据 并 
以 Flume 高 效 地 写 人 到 HDFS。 

存储 库 包 括 分 布 式 文件 系统 HDFS .实时 分 布 式 数 
据 库 HBASE 关系 型 数据 库 ORACLE 和 MySQL。 
HBASE 适合 存储 海量 半 结 构 化 数据 ,可 以 存储 Flume 
工具 采集 的 日 志 数 据 。ORACLE 和 MySQL 等 关系 型 
数据 库 , 可 存储 结构 化 数据 。 由 于 HDFS 适合 存储 半 
结构 化 数据 或 海量 非 结 构 化 数据 ,因此 可 存储 日 志 奖 
据 、 以 FTP 传输 方式 采集 到 的 文档 数据 以 及 以 息 虫 工 
具 采 集 的 网 站 数据 。 

数据 处 理 单元 部 分 除了 提供 基础 的 数据 抽取 与 统 
计 分 析 算 法 外 ,还 提供 半 结 构 化 和 非 结 构 化 数据 转 结 
构 化 数据 处理 算法 数据 内 容 深 度 理解 算法 等 ,涉及 自 
然 语言 处 理 .视频 图 像 内 容 理 解 ,文本 挖掘 与 分 析 等 ， 
数据 处 理 效果 的 好 坏 直 接 决 定 了 业务 应 用 层 数 据 统计 
分 析 的 准确 性 和 用 户 体验 。 根 据 不 同业 务 需求 可 
以 适当 地 选择 使 用 数据 处 理 技术 ,对 于 实时 性 要 求 高 


团 定 情报 三 作 


第 64 卷 第 10 期 2020 年 5 月 


ChinaXiv 合 作 期 刊 


的 数据 分 析 处 理 可 选择 使 用 流 处 理 技术 Storm; 对 于 进 
行 大 规模 离线 数据 分 析 处 理 可 使 用 批 处 理 技术 Map - 
Reduce; 对 于 整合 流 处 理 和 批 处 理 , 实 现 数据 的 实时 分 
析 和 深度 挖掘 可 使 用 流 处 理 与 批 处 理 相 结合 的 技术 
Spark ;对 于 要 求 高 性 能 的 大 数据 分 析 处 理 能 力也 可 利 
用 基于 内 存 计 算 的 Spark。 

在 数据 源 层 上 包含 着 集成 对 象 ,包括 MySQL、OR- 
ACLE SQL server 等 的 关系 型 数据 库 ,还 有 XML 和 Ex- 
cel 等 的 日 志 数据 源 和 文本 数据 源 。 

在 应 用 层 , 可 得 到 的 结果 为 基于 已 处 理 和 融合 的 
数据 的 分 析 结 果 , 包 括 个 性 化 推荐 .日志 分 析 ` 数 据 管 
理 和 用 户 统一 认证 服务 等 ,实现 实时 监测 ,动态 管理 、 
精准 服务 以 及 决策 支撑 等 。 


5 忆 结 语 


加 未 文 梳理 了 公共 文化 服务 大 数据 集成 中 会 面临 的 
论 测 问题 以 及 公共 文化 服务 大 数据 集成 架构 。 由 于 公 
失血 化 服务 大 数据 结构 并 非 只 限于 结构 化 数据 ,还 包 
插图 片 .视频 .评论 等 非 结构 化 数据 ,传统 数据 集成 广 
潜 丙 以 实现 集成 。 因 此 ,笔者 针对 现 有 的 大 数据 处 理 
进行 了 简单 的 比较 并 设计 了 基于 Hadoop 框架 的 
ZB 文化 服务 大 数据 集成 架构 。 由 于 公共 文化 服务 大 
糯 漳 来 源 多 种 多 样 ,这 些 数据 在 结构 和 时 序 上 都 有 所 
不 向 ,需要 采用 合适 的 采集 技术 以 及 存储 技术 ,由 于 各 
企 朋 据 源 的 数据 模型 不 同 ,在 数据 融合 层 会 面临 一 些 
地 甘 上 的 问题 ,如 数据 不 一 致 .字段 不 一 致 数据 宛 余 、 
数据 缺失 .噪声 数据 等 ,对 这 些 问 题 的 解决 方案 可 以 用 
相仿 性 系数 计算 .元 数据 处 理 方法 、 相 关 分 析 ` 回 归 、 贝 
叶 斯 、 分 箱 技术 、 聚 类 技术 .人 工 与 计算 机 结合 等 多 个 
处 理 方法 。 
本 文 根 据 描述 的 公共 文化 服务 大 数据 集成 中 会 遇 
到 的 问题 ,结合 大 数据 集成 相关 技术 设计 出 了 公共 文 
化 服务 大 数据 集成 架构 。 当 然 , 跨 部 门 . 跨 机 构 的 多 源 
异 构 数 据 集成 不 仅仅 是 个 技术 问题 ,还 有 人 员 .管理 与 
利益 等 方面 的 问题 ,大 家 并 不 愿意 共享 自己 的 数据 ,在 
智慧 城市 建设 中 尤为 明显 ,公共 文化 领域 亦 是 如 此 ,大 
数据 集成 与 融合 还 有 很 长 的 道路 。 当 然 ,现在 互联 网 
公司 在 数据 集成 方面 做 得 比较 好 ,一 方面 这 些 企业 获 
得 了 数据 集成 与 应 用 所 带 来 的 巨大 利益 ; 另 一 方面 , 通 
过 数据 中 台 对 数据 进行 集成 .汇总 ,有 了 数据 中 台 的 支 
撑 , 可 以 针对 新 的 环境 变化 .市场 需 求 快速 构建 新 的 业 
务 与 系统 ,从 而 赢得 竞争 优势 ,这 对 公共 文化 领域 是 个 
启发 。 相 信 随 着 公众 对 公共 文化 服务 需求 的 不 断 增 


长 .各 公共 文化 服务 机 构 的 不 懈 努 力 , 公 共 文 化 服务 大 

数据 的 集成 也 会 逐步 得 到 重视 并 有 序 地 落地 实现 。 
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= Abstract: | Purpose/significance | To design an effective integration architecture for multi - source heterogene- 
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fusion layer, storage layer and application layer, and discusses key technologies such as acquisition and storage. 
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